影响未来10年的黑科技：DNA数据存储吸引微软、Illumina等15家结盟

Original Barney 基因慧 2022-10-02

收录于合集 #基因及数字生命健康行研 51个

。

数字生命健康产业创新服务

基因慧

5G和量子计算等计算技术快速发展同时，有一个问题日益严重，到2040年数据存储可能不够用了——亟需信息密度更高的存储介质，例如比硬盘存储信息密度高效一百万倍的DNA，这吸引到微软联合Illumina等15家机构在11月成立DNA数据存储联盟。DNA数据存储，这项黑科技已经被研究了50多年，近年得到加速，将影响未来10年的IT和BT格局。

文章 | 基因慧编辑 | Barney 关键词 | DNA数据存储

图1（来源/YOSHI SODEOKA）

2011年2月16日，一个略显阴沉的星期三，在德国汉堡市的一家旅馆酒吧里，来自欧洲生物信息研究所的Nick Goldman与他的朋友正在为一个问题讨论得面红耳赤，结束后，大家都感到非常沮丧。是什么问题呢？

如何负担起在世界各地的海量基因组数据昂贵的存储？而且，存储可能很快就不够用了。

Goldman记得那天，他们甚至开始对“科幻的替代品”DNA开起开玩笑：为什么我们不用DNA来存储DNA信息呢？

这在当时只是一个玩笑话，后来就不只是玩笑，而是——科幻照进现实。

大数据存储即将不够用了

随着互联网以及5G等技术的发展，全球37亿互联网用户每天产生约数亿GB级数据。根据Nature报道，2020年，全球数字信息容量估计将达到44万亿GB，是2013年的10倍；到2040年，如果所有内容都实现即时访问，存储（基于闪存）将消耗的微芯片级硅是预期供应量的10–100倍。

图2：数据存储的能力远远赶不上数据生产的速度

（来源/Twist, IDC）

因为硅存储信息的密度有限，也就不难理解为什么目前数据的永久性存储还是用老式的磁带。虽然磁带存储的信息密度比硬盘大很多，但有另外两个问题：读起来非常慢，而且特别耗电。

美国计算神经科学家David Markowitz表示，一个EB（百万GB）级别数据中心如果使用磁带，每年的建设和维护费用将需要1亿美元，以及耗电千万度级别，因此磁带存储不可持续。

那么，数据存储的未来将是什么？解决方案是DNA数据存储。

从物理层面，DNA是宇宙中信息密度最高的已知存储介质，信息密度是硬盘的一百万倍，是闪存的一千倍，单位耗电量仅为亿分之一。此外，由于DNA的稳定性，目前从70万年前的古DNA（2013年，马基因组）中仍可进行测序解读，其存储时效远非其他介质可比拟。

图3：存储介质的对比

（来源/doi:10.1038/537022a）

David Markowitz认为，如果用DNA来存储数据，全世界的存储需求用1千克的DNA就可以满足（信息封装密度以大肠杆菌的基因为标准）。

业内首份蓝皮书《2021基因行业蓝皮书》 “联合发布“招募即将截止

64年前就开始的DNA数据存储研究

图4：DNA数据存储研究的主要文献发布时间表

（来源/doi:10.1038/s41576-019-0125-3)

DNA数据存储的概念可以追溯到1960年代中期。当时，科学家Norbert Wiener和Mikhail Neiman首次发表了有关“遗传内存（genetic memory）”的概念。但当时DNA测序和合成技术仍处于起步阶段。直到20多年后，DNA数据存储的概念才正式得以被知晓。

1988年，艺术家Joe Davis与哈佛大学研究人员合作，首次将数字1和0映射到DNA的四个碱基上，并插入大肠杆菌的DNA序列，仅编码35位（bits）。大约在同一时间的1986年，Richard Dawkins在书籍《盲人钟表匠》中也提到了这一想法。

后来Joe Davis加入了哈佛大学知名遗传学家George Church的实验室，在2011年将DNA数据存储的概念引入世界：把一本52,000字的书编码到数千个DNA片段中。合作者包括加利福尼亚大学洛杉矶分校的Sri Kosuri和位于约翰·霍普金斯大学的Yuan Gao。

图5：华盛顿大学和微软进行DNA数据存储自动化的概念验证的装置及原理（来源/Valuewalk）

与此同时，EBI（欧洲生物信息研究所）的Nick Goldman和Ewan Birney在2011年德国汉堡市的酒吧餐巾纸上讨论完后，把DNA数据存储的想法带到了实验室，两年后宣布成功地使用DNA编码了五个文件，容量739 KB，是有史以来最大的DNA档案；直到2016年7月，微软和华盛顿大学的研究人员声称已跃升至200 MB（其中包括音乐和视频）。

怎么用DNA来存储数据？

DNA到底怎么存储数据呢？关键步骤有两个：编码和解码。

图6：通过DNA合成存储DNA基础逻辑

DNA通过密码子合成氨基酸，信息通过二进制转化为碱基（来源/digitaltrends）

先说编码。

在计算机中，任何信息以1和0的形式存储。而在DNA中，遗传信息（通常）以四种碱基腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)且按规则在生物体内排序。将0和1以不同规则（见下图）映射A/T/C/G，即可形成序列存储到DNA中。

图7：DNA数据存储使用的四种转码方法举例

（来源/doi: 10.1093/gigascience/giz075）

再说解码。

DNA通过PCR扩增（体外），可以按照密码子表规则（三个相邻碱基编码一个氨基酸）翻译成蛋白质（体内），因此可存储在体内或体外并进行复制（产生拷贝）。如果在生物体内，通过基因测序即可从生物组织或体液中读取DNA序列信息，再通过原始映射规则解码出原始存储的字节信息。

具体怎么操作？

图8：DNA数据存储和解读的流程

（来源/Twist等）

首先，采用计算机算法将信息字节转换成为DNA序列；然后机器合成DNA序列（编写），产生每个序列的多个物理拷贝。以磷酰胺为基础的固相柱上合成（低通量）或固相介质上阵列合成（高通量）。合成后的的 DNA 材料可以克隆并存储在生物细胞内（体内）或者体外（更常见）。

其次，通过检索选择目标DNA再使用映射到编码过程中所生成特定数据项的引物和PCR扩增，获得目标DNA，再通过测序仪获取DNA对应的序列。

最后，通过映射规则将序列转码成原始的0和1字节信息。

DNA数据存储的难点和突破

目前，DNA数据存储处于实验研究阶段。在成熟之前面临以下几个主要的问题。

图9：DNA数据存储过程详解

（来源/doi:10.1038/s41467-019-10978-4）

首先，要确保信息不失真。

严格意义上，DNA数据存储没有纠错功能，需要依靠每个序列多个副本（拷贝）所提供的冗余信息来校正。

在2011年，George Church和Gao Yuan合作的659KB DNA数据存储中，在序列排序后发现了22个错误。而在同时期，欧洲生物信息研究所确保每25个碱基片段都有四个版本的情况下，仍然在25个碱基序列中发现了2个错误。

为提高准确率，2017年7月，George Church团队采用CRISPR 编辑技术将人类手的图像记录到大肠杆菌基因组中，并以90％以上的准确率读取了该图像。

其次，要实现快速读取。

使用标准测序方法，检测任何一条数据时都需要读取每个DNA字符串，相比传统计算机存储可以随机访问，显得笨重地多。

针对这个问题，2017年3月，科学家创造了一种称为”DNA喷泉“的算法，可以从特定密度（每克DNA存储215 PB）相对完美地检索信息。而Catalog公司的方法是将数据转换为合成聚合物的固体颗粒。访问数据时，将其沉淀和再水化（rehydrate），但这个过程仍然需要至少几个小时。

再者，降低成本提高可及性。

DNA数据存储的传统思路是依赖于每次合成新的DNA分子，然后将字节序列映射到DNA的碱基对序列。这需要制造足够的DNA分子来存储想要的信息，过程程缓慢且昂贵。

在上述EBI的试验中，花费12,660美元，其中98%是合成DNA的成本。

为改善这个问题，Catalog公司的方法是将合成过程与编码过程分离。即，只生成大量的几个“预制分子”（使其便宜得多），然后通过从预制分子中产生大量多样性来编码信息。类比硬盘存储的话，相当大量生产空白硬盘驱动器，然后在需要时用编码信息填充它。即便如此，仍需要革新DNA合成的过程，目前主要的生产方法仍然是延续近30年的化学过程，需要至少花费400秒才能添加每个碱基。

最后，实现全自动化使其易用。

要使得DNA数据储存成为广泛应用的商业化产品，需要完成合成、存储和测序等整个过程的自动化。

2019年，华盛顿大学和微软发布第一个处理5个字节（“hello”）的数据的端到端存储设备（见图5），主要的限制因素是基于液体DNA的存储。未来有望基于纳米和微流体，例如“Puddle“微流体平台（Willsey等，2019年）和玻璃载体脱水DNA斑点（Newman等，2019）。另一种思路是基于互补金属氧化物半导体（CMOS）技术，Twist 和Roswell正在开发相关设备。

前景和趋势

图10：DNA数据存储的兴起

（来源/Forbes）

得益于高通量DNA测序和合成的快速发展，使得基于DNA的数据存储技术从科幻逐渐变成现实，尤其体现在其优异的存储密度和稳定性上，使其成为碳基（相比当前的硅基）档案的巨大潜力。

随着2007年Illumina发布下一代高通量测序仪，2015年华大发布国产NGS测序仪，分别从不同角度推进高通量测序技术应用的普及，达到每GB 200美元（人）的成本，推动全球超过10个国家进行十万人级基因队列研究。

正如上文所说，DNA数据存储的核心成本是DNA合成。这方面已得到一定的推进。在2019年初，DNA Script宣布通过酶促合成成功生产第一个200个核苷酸长的DNA片段。Twist Bioscience表示可提供长达300个核苷酸的大量无错误DNA片段。

美国智能高级研究项目(IARPA)最近启动了分子信息存储技术（MIST）计划，将开发每天可写入1 TB数据并读取10 TB数据的技术。参与者包括上述提到的微软、DNA Script、Illumina、华盛顿大学等机构。

除了DNA测序和DNA合成，从结构上讲，DNA分子不能仅仅应用于现有的芯片架构，必须通过软件和物理互连来优化和解决硅到DNA的接口，以及标准化DNA数据格式，简化工作流程，以实现跨平台存储并嵌入现有数据架构的端对端解决解决方案。

图11：DNA数据存储的投资形式

（来源/doi:10.1016/j.biotechadv.2020.107639）

风险投资关注DNA数据存储开始不久。从数据上可以看到2010年起缓慢提高关注度（如上图），在2019年（基于前9个月的估计数据）有所下降。而目前DNA数据存储企业投入关键领域的DNA合成和设备仅占到两成。同时，产业链上下游协作已引起重视，11月，微软联合产学研共15家机构结成DNA数据存储联盟。（另外14家包括Illumina、Twist、Western Digital、Ansa Biotechnologies、Catalog、The Claude Nobs Foundation、DNA Script、EPFL、ETH Zurich、Interuniversity Microelectronics Centre、Iridia、Molecular Assemblies、Molecular Information Systems Lab）

基因慧认为，DNA数据存储市场将大于DNA测序本身。国内公开报道的仅见华大和华为投入相关研究。预计第一批商业应用市场，包括图像备份或流媒体服务等。

数字革命改变了人类与数据的关系，使社会进入信息时代，数据也成为我国新时代的市场元素。DNA作为自然的礼物，正在从生命密码的解读，迈入基因治疗、基因合成和DNA存储等更深层次和全方位的应用。但类似基因编辑的事件教训，数据隐私安全和生命伦理在发展过程中需要高度重视。

目前尽管技术上有很大不完美，但随着Twist Bioscience、DNA Script、Catalog、BGI等研究型企业的加入以及类似微软、华为等跨学科巨头的投入，未来可以预见DNA数据存储从技术转化为产品。基因慧预计，未来5-10年将有重大突破，20年内将改变目前的半导体领域格局。

10年前在德国旅馆酒吧里沮丧的Nick Goldman，最近刷新了对未来的期待，在DNA数据存储完全普遍之前，至少需要十万倍数量级的改善。而我们知道短短20年，基因测序已经得到了百万倍数量级的改善。

碳基取代硅基存储万物信息，未来曲折而乐观。

注：以上为编译材料，仅供参考，更多信息请参考以下文献及原始出处

参考信息：

1.Randolph Lopez et. al., DNA assembly for nanopore data storage readout, Nat Commun, 2019

2. Zhi Ping et.al., Carbon-based archiving: current progress and future prospects of DNA-based data storage, Gigascience, 2019

3. Philip M.Stanley et.al., Decoding DNA data storage for investment, Biotechnology Advances,2020

4. https://nuclineers.com/dna-data-storage

5. https://www.digitaltrends.com/cool-tech/dna-data-catalog-startup

6.https://www.nature.com/news/how-dna-could-store-all-the-world-s-data-1.20496

7. https://www.nanalyze.com/2017/01/dna-data-storage-technology-available

8.https://www.forbes.com/sites/johncumbers/2019/08/03/dna-data-storage-is-about-to-go-viral/?sh=3ac873b77721

9.https://www.scientificamerican.com/article/dna-data-storage-is-closer-than-you-think

10.https://www.technologyreview.com/2017/05/22/68387/microsoft-has-a-plan-to-add-dna-data-storage-to-its-cloud

11.https://blocksandfiles.com/2020/03/18/catalog-cdna-data-storage-economically-feasible

12.https://www.geneticsdigest.com/the-role-of-dna-data-storage-in-health-and-technology/

13.https://www.nanalyze.com/2017/01/dna-data-storage-technology-available/

14.http://www.ssbt.org.cn/upload/20191212153656_562.pdf

15.https://www.nature.com/articles/s41576-019-0125-3

推荐阅读月

中国肿瘤学大会肿瘤标志分会场笔记

去年预测基因行业这些事80%成真了

苹果投资者看好的这家公司将小说存储到基因中

【声明】为传播科学信息，推动基因及数字生命健康产学研连接，我们秉持中立、专业、赋能的理念收集、分析或发布信息。但由于时效性及行业特殊性，所刊登内容仅供研究参考，不作为决策依据；本文相关信息不代表基因慧机构的观点；“基因慧”刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有；欢迎转载，转载请申请并注明来源。欢迎个人及机构投稿及合作。

关于基因慧

基因慧是数字生命健康领域创新服务平台。团队深耕行业十余年，从行研咨询、媒体资讯、产业平台等角度提供优质内容。作为国发改产业研究合作单位，基因慧联合多家头部机构连续四年发布公开的行研报告，为产业园、投资机构、头部企业及政府提供咨询规划服务，参与组织发布行业共识和标准，致力于建设数字生命健康产业数字化平台，服务生命科技创新创业。

☆ 国发改《战略性新兴产业发展展望》编委

☆ 参与组织发布行业共识、团体标准

☆ 发布产业大数据平台优脉通YourMap

☆ 中国遗传学会生物产业促进委员会委员

☆ 发布数十份基因及数字生命健康领域行研报告

☆ 组织基因检测联盟（筹）首届、第二届会议

☆ 主办数字健康私董会、大湾区生命健康创新论坛

☆ 受邀为华西、Illumina、华大、上海交大等报告

☆ 中国抗癌协会肿瘤标志专业委员会战略合作单位

☆ 广东省精准医学应用学会政策研究应用分会常务委员

▼ 点击“阅读原文”，查看精选文章

使连接产生价值用数据看见未来